细观察 - Llama-2开源新闻刷屏背后...... 商用?没戏,“中文”被排除在外!
图|汤源
▽
题记
新闻背后
△
Llama 2: Open Foundation and Fine-Tuned Chat Models ▩摘要 在这项工作中,我们开发并发布了 Llama 2,这是一组经过预训练和微调的大型语言模型(LLM),其规模从 70 亿到 700 亿个参数不等。我们的微调 LLM 被称为 Llama 2-Chat,针对对话使用案例进行了优化。在我们测试的大多数基准测试中,我们的模型都优于开源聊天模型,而且根据我们对有用性和安全性的人工评估,我们的模型可能是封闭源模型的合适替代品。我们将详细介绍我们对 Llama 2-Chat 进行微调和安全性改进的方法,以便社区能够在我们工作的基础上,为负责任地开发 LLMs 做出贡献。 ▩发布了多个模型:LLAMA 基础模型(7B、13B、34B、70B)和具有相同规模的 LLAMA CHAT应用微调“化身”。Meta 公司 "将预训练语料库的规模扩大了 40%,将模型的上下文长度增加了一倍(达到 4k),并采用了分组查询注意力机制(grouped-query attention)(Ainslie 等人,2023 年)"。 ▩模型能力:广泛的基准测试,确信一个70B开源模型达到了 ChatGPT 的水平(当然coding能力除外,笔者注:业界有WizardCoder LM可以改进这一点)。 ▩模型成本:大量的预算和投入(例如,如果按市场价格计算,参考数据估计的成本约为 2500 万美元),同时需要非常庞大的团队,和制作一个通用模型的投入人力相当。 ▩其他组件:人工反馈强化学习(RLHF)这部分并没有发布奖励模型或数据集。 ▩Meta公司组织结构:显示了Meta AI组织变革的迹象--负责这个项目的组织-GenAI,似乎有别于 Yann Lecun 和最初 FAIR 的所有人。 ▩代码/数学/推理:论文和 RLHF 过程中对代码数据的讨论并不多。例如,StarCoder的150亿个参数击败了HumanEval的40.8和Python的49.5 MBPP最佳模型。 ▩多轮一致性:多轮一致性(multi-turn consistency)的新方法--Ghost Attention(GAtt),灵感来自 Context Distillation。在我们更好地理解如何根据我们的需求训练模型之前,这些方法通常是提高模型性能的黑客手段 ▩奖励模型:使用两个奖励模型来避免在 Anthropic 的工作中发现的安全与有用性之间的权衡。 ▩数据控制:大量关于分布控制的评论(正如作者所说的,分布控制是 RLHF 的关键)。这很难再现。 ▩RLHF 流程:使用两阶段 RLHF 方法,从拒绝采样(Rejection Sampling)开始,然后进行拒绝采样 + 近端策略优化 (PPO),指出 RLHF 极其重要,"LLM的卓越写作能力......从根本上说是由 RLHF 驱动的"。 ▩生成:需要根据具体情况调整温度参数(例如,创造性任务需要更高的温度,见技术报告第 5 节/图 21) ▩安全/危害评估:非常非常长的安全评估(几乎占了论文的一半)和详细的情境蒸馏(context distillation)和 RLHF,以确保安全。虽然结果并不完美,也有不足之处,但这是朝着正确方向迈出的一步。 ▩使用许可:该模型可用于商业用途,除非您的产品月活跃用户大于等于 7 亿。需要填写表格才能获得访问权限,也可以从 HuggingFace 中心下载模型。(此信息在下载表格 "Llama 2 社区许可协议 "中)。
△附-https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models & https://www.interconnects.ai/p/llama-2-from-meta
炼丹后的Pre-Trained模型:Llama 2
针对会话任务的微调Fine-Tuned化身模型: Llama 2-Chat
▩开源不等于完全免费,更不是没有任何范围限制
开源模型并不适用于除英语以外的语言中使用,这基本堵死了国内一众贴牌大模型公司,准备借LLAMA 2开源商业,合法升级千模大战的伪“炼丹”之路。
▩首个开源LLM Chat模型的秘密
""" You are a helpful, respectful and honest assistant. Always answer as helpfully as possible, while being safe. Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal content. Please ensure that your responses are socially unbiased and positive in nature. If a question does not make any sense, or is not factually coherent, explain why instead of answering something not correct. If you don't know the answer to a question, please don't share false information. """ """
您是一位乐于助人、尊重他人、诚实守信的助手。请在保证安全的前提下,尽可能地回答问题。您的回答不应包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法内容。请确保您的回答不带任何社会偏见并具有积极意义。如果问题没有任何意义或与事实不符,请解释原因,而不要回答不正确的问题。如果您不知道问题的答案,请不要分享虚假信息。
"""
可以看到Llama 2采用了类似@openai的角色(role)概念,我认为这将更容易实现为@simonw所期望的函数调用 API 的 OSS 复制品。
同时有人统计了Llama 2的推理模型依赖包、代码量以及权重文件大小:
https://huggingface.co/TheBloke/Llama-2-7B-GGML
对了数据集时限,预训练数据截止2022年9月。但是微调数据部分很新到2023年7月发布的时候。
Llama 2及Llama 2-Chat开源带来的AI²Paradigm范式思考
△
“AI²Paradigm范式当前版本为v4.0”
这是CPO乐于所见的范式现象新发展,而这一切不过才刚刚开始。同时可能AI范儿社区投资的群友更感兴趣的是微软,在第一时间就在Azure上推出了与Llama 2的合作。
△
“微软CEO SatyaAI²Paradigm范式当前版本为v4.0”
这个长得有点让人想起印度英雄甘地的微软CEO-Satya,左手闭源OpenAI,右手开源Llama,在AI大模型时代玩得一手好牌,真比PC时代的Bill Gates也不差,甚至可以说再造了一个新微软。
微软投资OpenAI LP的创投范式CPO在公众号多篇文章有提及。包括在最新的解读AI狂潮“卖淘金铲子“范式解读中也有描述,微软Azure是这波AI狂潮中,唯一赚到卖铲子钱的云厂商。
新观察-上篇:大模型算力服务让云大厂难使劲,超算和矿机公司再逢春-AI²Paradigm之“Shovels”服务路径范式解读
AI范儿社区CPO携群友prompt共创的AI²Paradigm范式,将密切跟进中美这波AI范式现象发展,构建范式底层商业与智能、工程演进逻辑,与这波AI狂潮中寻找方向的群友一起,继续为AI发电!
参考
说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。
-相关推文
-Llama 2: Open Foundation and Fine-Tuned Chat Models
https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
END
扫码加群,
立变AI🍚!
AI范儿读者群
那些prompt了我的,
是否也prompt了你...